\documentclass[12pt,a4paper]{article}

\usepackage{graphicx}
\usepackage[T1]{fontenc}
\usepackage[latin1]{inputenc}
\usepackage[portuguese]{babel}
\usepackage{indentfirst}
\usepackage{lastpage}

%\setlength{\topmargin}{30mm}
%\setlength{\pagenummargin}{20mm}
%\setlength{\bottommargin}{20mm}
%\setlength{\sidemargin}{30mm}
%\setlength{\marginparwidth}{25mm}

\pagestyle{plain}
\pagenumbering{arabic}

\begin{document}

\setcounter{tocdepth}{3}

\renewcommand{\contentsname}{Sumrio}
\renewcommand{\figurename}{Figura}
\renewcommand{\tablename}{Tabela}
\renewcommand{\chaptername}{Captulo}
\newcommand{\sectionname}{Seo}
\renewcommand{\bibname}{Referncias}
\renewcommand{\appendixname}{Apndice}

\title{Sumarizao Automtica de Textos Web em Servidores de Pginas para Dispositivos Mveis}
\author{Alfredo Luiz Foltran Fialho / Jacir Bordim / Ricardo Jacobi\\alfoltran@gmail.com / bordim@unb.br / rjacobi@unb.br}
\date{Braslia, 23 de outubro de 2006}

\maketitle
%\tableofcontents
%\newpage

\renewcommand{\abstractname}{Resumo}
\begin{abstract}
O acesso  Internet por meio de dispositivos mveis introduziu novas necessidades em termos de aplicaes e servios especficos para esse tipo de tecnologia. Dados acessados
atrves desses servios devem ser estruturados levando-se em conta as caractersticas tpicas de dispositivos mveis, tais como limitada quantidade memria, reduzida capacidade
de processamento e reduzida rea de exibio. Esta ltima em particular torna um desafio a tarefa de desenhar uma pgina HTML que foi projetada para computadores que
utilizam monitores com resolues muito maiores. Longas reas de texto so de difcil visualizao e navegao. Um modo de se lidar com essa limitao  atravs da sumarizao
automtica dos textos do documento, possibilitando a indexao do seu contedo. Este trabalho analisou os algoritmos utilizados para a sumarizao automtica de textos com o
intuito de se escolher uma boa soluo em {\bf Software Livre}. A partir dos estudos realizados  apresentado um novo sumarizador de textos em lngua portugusa. Testes
comparativos mostram uma melhoria na qualidade da sumarizao superior a 40\% nos casos avaliados com excelente tempo de resposta.
\end{abstract}

%\renewcommand{\abstractname}{Abstract}
%\begin{abstract}
%{\it
%The possibility to access internet through mobile devices leaded to the necessity of specific systems to this kind of tecnology. The problem is that there is few
%available resources as processor capacity, memory and screen size. As a matter of fact, the screen size create a particular challenge: to render a HTML page
%originally projected to screens with better resolutions. This limitation can be surpassed through authomatic summarysation of the document. It gives the poissibility
%of content paging.
%
%This work analizes some of the algorithm used to do the authomatic summaryzation, and some of its open source tools. The objective is to choose a good solution to the
%authomatic summaryzation of Web's portuguese texts according to the necessity of devices with limited resources.
%}
%\end{abstract}

\section{Introduo}
\label{IN}
A evoluo dos dispositivos mveis viabilizou o acesso  Internet atravs da comunicao sem fio. Por meio desses dispositivos sem fio  possvel navegar pela Internet,
enviar {\it e-mails} e mensagens instantneas at mesmo enquanto se movimenta pela rua. Entretando, esses dispositivos mveis atualmente possuem recursos limitados devido
a necessidade de se desenvolver equipamentos que sejam leves, de fcil manuseio, baixo consumo de energia e baratos. Essas restries se refletem nas caractersticas desses
dispositivos, tais como em suas limitaes em memria, capacidade de processamento e rea de visualizao. Dentre os diversos servios disponibilizados pelos servios
mveis, a navegao pela Internet  um dos mais complexos, introduzindo uma srie de desafios decorrentes de suas limitaes. Nesse sentido, servios dedicados que visam
contornar suas inerentes restries tem sido desenvolvidos e so o foco de pesquisas atuais. O WAP ({\it Wireless Application Protocol}) \cite{WAP} e o
{\it i-mode} \cite{imode} so exemplos desse tipo de iniciativa. Um dos problemas com essa abordagem  que o contedo precisa ser desenvolvido especificamente para esses
dispositivos, o que no ocorre com a grande maioria do contedo existente na Internet. As pginas Web, em geral, so projetadas para a visualizao em computadores com muito
mais recursos em termos de memria e resoluo da tela. Ao se tentar acessar uma pgina Web, cujo contedo no seja adequado ao dispositivo mvel, pode-se enfrentar vrios problemas,
tais como falta de memria, dificuldade de navegao e visualizao das informaes. Para contornar esse problema  possvel realizar um pr-processamento da pgina, seja por
meio de um servidor dedicado ou um {\it proxy}, adaptando-a s caractersticas do dispositivo.

Uma pgina Web pode ser adaptada por meio de vrias tcnicas. Pode-se ver em \cite{Mobile} essas tcnicas sendo comparadas por meio de navegadores existentes no mercado.
O {\bf Nokia Series 60} \cite{Nokia}, por exemplo, tem a opo de gerar uma foto da pgina em tamanho reduzido para caber na tela de um celular. O
{\bf Opera Mini} \cite{Opera} redimensiona e diminui a qualidade das figuras, alm de usar fontes pequenas.

Este trabalho se insere no contexto do projeto Grael \cite{Grael}, que visa o desenvolvimento de uma soluo completa para os problemas existentes nesta rea. O Grael prev
em sua arquitetura o uso de fotos reduzidas da pgina com o mapeamento dos componentes HTML existentes em {\it links}. A foto serve como ndice para o contedo HTML de cada
componente que  recuperado de forma sumarizada de acordo com as configuraes do perfil do usurio. O usurio pode em seu perfil, por exemplo, cadastrar palavras-chave
relacionadas com assuntos de seu interesse, tornando a sumarizao mais eficiente. H tambm a possibilidade da escolha entre nveis de sumarizao como os discutidos em
\cite{Buyukkokten}. Um {\it link} do tipo ``leia mais''  disponibilizado para a busca do texto completo ou com um grau de sumarizao menor do componente.

Textos, em geral, podem ser sumarizados por meio de resumos ou extratos. No resumo, ou abordagem profunda, o texto  reescrito de forma sinttica \cite{Pardo1, Martins}.
J nos extratos, abordagem superficial, algumas frases so capturadas do texto original tal que consigam exprimir a idia central. Em geral os
algoritmos de resumos so mais complexos do que os de extratos, j que resumos requerem o entendimento e interpretao do texto, assim como o conhecimento da lngua e suas
regras gramaticais. Os algoritmos utilizados em extratos so, na maioria, baseados em anlise estatstica, enquanto os resumos utilizam recursos de inteligncia artificial.
Devido  dificuldade intrnseca em se formalizar a linguagem natural, os algoritmos que geram resumos ainda so muito imprecisos (veja a bateria de relatrios sobre
sumarizao gerada em \cite{NILC}). Por outro lado, os extratos produzem resultados bastante satisfatrios.

Outra grande vantagem na utilizao de extratos  que, com a simplicidade dos seus algoritmos em relao aos dos resumos, a execuo da rotina de sumarizao  muito
mais rpida. A velocidade de execuo  um requisito fundamental para uma rotina que ser executada por um servidor de pginas Web atendendo vrias requisies simultneas
(ver \cite{Pardo1} e {\bf \tablename~\ref{TAB_VEL}}).

Por fim, os algoritmos de sumarizao so por natureza fortemente ligados a uma lngua. Entretanto, uma qualidade desejvel para um sumarizador de pginas Web  a facilidade
de expanso para suportar outras lnguas. Por motivos bvios os algoritmos de extrao so mais apropriados para isso.

As ferramentas de sumarizao existentes com suporte  lngua portuguesa so poucas. Uma ferramenta desse tipo, com suporte ao portugus e desenvolvida em {\bf Software Livre},
simplesmente no existe. O melhor sumarizador automtico em {\bf Software Livre} existente  o OTS ({\it Open Text Summarizer} \cite{OTS}), que foi escrito originalmente com
suporte ao ingls (veja \cite{Ji}). O NILC (Ncleo Interinstitucional de Lingstica Computacional) \cite{NILC} desenvolveu uma srie de sumarizadores, com diferentes
abordagens, e desses o que obteve melhores resultados foi o GistSumm \cite{GST}. O GistSumm foi desenvolvido para o portugus, mas  {\it software} proprietrio.

Este trabalho analisa vrios dos algoritmos utilizados para a sumarizao automtica de textos, ou seja, incorpora vrias tcnicas de sumarizao ao OTS. A soluo alcanada
foi uma recodificao do OTS utilizando um algoritmo de freqncia conhecido como TF-ISF ({\it Term Frequency - Inverse Sentence Frequency}). Testes comparativos mostram uma
melhoria na qualidade da sumarizao superior a 40\% nos casos avaliados com excelente tempo de resposta. Alm de um OTS melhorado e com um novo algoritmo de sumarizao,
foram implementadas e avaliadas bases de dados (dicionrios) para o portugus.

O restante deste artigo contm na {\bf \sectionname~\ref{AE}} a explicao dos algoritmos de extrao de textos mais conhecidos. Os algoritmos foram comparados e os
resultados da comparao esto expostos na {\bf \sectionname~\ref{CA}}. A concluso do experimento est na {\bf \sectionname~\ref{CO}}.

\section{Algoritmos de Extrao}
\label{AE}
Os algoritmos de extrao se baseiam no fato de que todo texto tem uma idia central possvel de se identificar atravs de uma ou mais sentenas do texto original. Para
identificar tais sentenas centrais utilizam-se mtodos estatsticos que ranqueiam cada uma das sentenas do texto. So selecionadas para o extrato final aquelas com
maior pontuao. O que difere cada um dos algoritmos utilizados para a extrao de texto  a forma como este ranqueamento  feito.

A seguir so detalhados cada uma das formas de ranqueamento dos principais algoritmos de extrao de texto.

\subsection{Palavra-chave}
\label{AE_PC}
Este mtodo ranqueia as sentenas baseado no nmero de palavras-chave presentes na mesma. A pontuao atribuda pode ser o nmero de vezes em que
uma palavra-chave apareceu na sentena ou a soma dos pesos atribudos a cada palavra-chave. As palavras-chave podem ser obtidas de maneiras diferentes,
tais como manual, contagem, freqncia no {\it corpus} ou freqncia no texto \cite{Espina}.

Os pesos atribudos s palavras do texto so associados, na realidade, a um identificador que representa a raiz daquela palavra. Para identificar a raiz
da palavra algumas tcnicas podem ser utilizadas. Como exemplos temos: dicionrio de regras, dicionrio morfossinttico, dicionrio de sinnimos e n-gramas. Neste
mtodo apenas as palavras de classe aberta podem ser consideradas como palavras-chave, as outras so ignoradas. As palavras que no satisfazem essa condio
so chamadas de \emph{stopwords}.

Uma vez pontuada, a sentena tambm pode receber um modificador multiplicativo. Esses modificadores servem para destacar certas sentenas com base na estrutura
do texto. Por exemplo, o ttulo, a primeira frase do texto e a primeira frase de cada pargrafo tendem a conter as idias centrais sendo dissertadas no texto.

\subsubsection{Mtodos de Pontuao}
\label{AE_PC_MP}
A seleo das palavras do texto que comporo a lista de palavras-chave  feita atravs da escolha das palavras com maiores pontuaes, excetuando-se as
\emph{stopwords}. Cada palavra  associada a uma raiz e cada raiz recebe uma pontuao conforme o mtodo utilizado. A seguir so expostos os mtodos mais utilizados.

\paragraph{Manual}
\label{AE_PC_MP_MA}
Este mtodo consiste na utilizao de uma lista de palavras-chave fornecida manualmente. Pode-se usar, por exemplo, em uma pgina Web a lista de palavras-chave
contidas no cabealho:

\begin{figure}[ht]
\centering
\frame{
\parbox{10 cm}{
~

\hspace{1 cm}$<${\bf meta}

\hspace{2 cm}{\bf name}="keywords"

\hspace{2 cm}{\bf content}="lista palavras importantes"$>$

~
}
}
\end{figure}

\paragraph{Contagem}
\label{AE_PC_MP_CO}
Neste mtodo cada palavra  associada com sua raiz que recebe uma pontuao igual a quantidade de vezes em que uma palavra com aquela raiz apareceu no texto.
As palavras-chave sero aquelas palavras cuja pontuao ficou acima de um limite (pontuao de corte). A pontuao de corte  obtida atravs da mdia das
pontuaes obtidas.

Aqui se pode tambm utilizar estatstica de um {\it corpus} de referncia, desde que do mesmo domnio do texto. Neste caso, as pontuaes so calculadas com
base no apenas na freqncia no texto, mas tambm no {\it corpus}. Melhores pontuaes so obtidas pelas palavras com alta freqncia no texto e baixa freqncia
no {\it corpus} de referncia.

\paragraph{Freqncia no \emph{Corpus}}
\label{AE_PC_MP_FC}
O mtodo de freqncia no {\it corpus} utiliza as estatsticas de um {\it corpus} de referncia. A idia  a mesma da citada acima. Este mtodo utiliza a
equao chamada de {\it Term Frequency - Inverse Document Frequency} (TF-IDF) \cite{Hovy}. A equao  a seguinte:

\begin{equation}
tfidf = tf \times idf
\label{EQ_TFIDF}
\end{equation}
A equao para o {\it Term Frequency}  dada por:

\begin{equation}
tf = \frac{p_i}{\sum_k p_k}
\label{EQ_TF}
\end{equation}
Onde $p_i$  o nmero de vezes em que a palavra ocorreu no texto. O denominador contm o nmero total de palavras do texto. A equao para a parte
do {\it Inverse Document Frequency}  a seguinte:

\begin{equation}
idf = \log{\frac{|D|}{|d_i \supset p_i|}}
\label{EQ_IDF}
\end{equation}
Aqui, $|D|$ representa o nmero total de documentos no {\it corpus} e o denominador  o nmero de documentos que contm a palavra.

Como dito acima, melhores pontuaes so obtidas pelas palavras com alta freqncia no texto e baixa freqncia no {\it corpus}. Assim, palavras muito
comuns so eliminadas.

\paragraph{Freqncia no Texto}
\label{AE_PC_MP_FT}
Parecido com o mtodo acima, este no necessita de um {\it corpus} de referncia, pois suas freqncias so analisadas no domnio das sentenas. As
equaes se tornam as seguintes:

\begin{equation}
tfisf = tf \times isf
\label{EQ_TFISF}
\end{equation}
Onde $tf$  o nmero de vezes em que a palavra ocorre na sentena. $isf$  dada pela equao abaixo:

\begin{equation}
isf = \log{\frac{|S|}{|s_i \supset p_i|}}
\label{EQ_ISF}
\end{equation}
Onde $|S|$  o nmero total de sentenas do texto e o denominador  o nmero de sentenas que contm a palavra.

Note que neste mtodo cada sentena possui sua prpria lista de palavras com pontuaes que ser usada para o clculo da pontuao da sentena.

\subsubsection{Mtodos para Identificar a Raiz}
\label{AE_PC_MR}
Como j foi dito, as pontuaes no so dadas a cada palavra, mas sim a cada radical e as palavras so associadas a sua respectiva raiz. O efeito disso 
que todas as flexes de uma palavra contam como aquela palavra. Por exemplo: belo; belos; bela; belas e belamente, so todas consideradas como uma mesma
palavra para efeito estatstico.

H muitas formas de se realizar esta tarefa e a maioria no fornecer a raiz precisamente, mas um identificador que desempenha o papel de raiz. A seguir
so mostrados alguns mtodos.

\paragraph{Dicionrio de Regras}
\label{AE_PC_MR_DR}
Um dicionrio contm regras de substituio para realizar a correspondncia entre palavras. Este mtodo seria o ideal para uma linguagem estruturada, mas
no funciona perfeitamente com linguagens naturais. Algumas das regras que se pode construir so:

\begin{list}{$\bullet$}{}
\item remoo de prefixos;
\item remoo de sufixos;
\item sinnimos;
\item substituio manual.
\end{list}

Por exemplo, pode-se definir que toda palavra terminada em \emph{mente} teria esse sufixo removido, mas nem toda palavra terminada em \emph{mente}  um advrbio
(semente, por exemplo). A maioria das regras possui uma exceo o que torna esse mtodo tedioso de se definir, alm de consumir muito processamento.

\paragraph{Dicionrio Morfossinttico}
\label{AE_PC_MR_DM}
Este mtodo utiliza um banco de dados com informaes morfossintticas da lngua. Este  um mtodo bastante preciso, mas que porm necessita realizar
uma consulta em banco de dados relacional para cada palavra. Por exemplo, uma consulta a palavra ``belas'' retornaria o identificador \{belo, adjetivo,
feminino, plural\}.

\paragraph{Dicionrio de Sinnimos}
\label{AE_PC_MR_DS}
Este mtodo  parecido com o anterior, porm os sinnimos tambm sero considerados como uma mesma palavra.

\paragraph{N-Grama}
\label{AE_PC_MR_NG}
O uso de n-gramas  bastante simples e eficiente.  uma boa alternativa para as lnguas de origem latinas que possuem muitas flexes tornando difcil
o uso de dicionrios de regras. Esta tcnica consiste em truncar a palavra para uma quantidade de letras que depende do tamanho da palavra. A palavra
``belas'', por exemplo, teria como identificador ``bel''. Esta tcnica pode tambm identificar alguns sufixos para remoo antes de proceder o truncamento.
Assim, ``belamente'' se tornaria ``bela'' e seria truncada para ``bel''.

\subsection{Rede Neural}
\label{AE_RN}
Algoritmo que utiliza uma tcnica de Aprendizado de Mquina, rede neural do tipo SOM ({\it self-organizing map}), para identificar as sentenas mais
importantes do texto. O algoritmo usa {\it stopwords}, um dicionrio lxico e organiza as informaes aprendidas em funo de {\it features} (caractersticas)
apresentadas \cite{Pardo3}.

As {\it features} (caractersticas) utilizadas so as seguintes:

\begin{list}{$\bullet$}{}
\item tamanho da sentena;
\item posio da sentena no texto;
\item posio da sentena no pargrafo;
\item presena de palavras-chave na sentena;
\item presena de palavras indicativas na sentena;
\item presena de palavras da sentena ncleo na sentena;
\item TF-ISF da sentena $\left (\frac{\sum_p tfisf(p)}{|s|} \right )$;
\item pontuao da sentena $\left (\frac{\sum_p freq(p)}{|s|} \right )$.
\end{list}

As palavras indicativas so aquelas que indicam a importncia do contedo da sentena. Por exemplo, em um texto cientfico poderiam ser ``avaliao'',
``concluso'', ``mtodo'', ``soluo'', etc. A sentena ncleo  a que possui a idia central do texto.

A rede classifica cada sentena do texto, com base nas {\it features}, como essencial, complementar ou suprflua. O extrato  obtido pela concatenao
das sentenas essenciais e complementares. Se todas as sentenas forem classificadas como suprfluas, elas so ordenadas de acordo com sua pontuao e
aquelas com maior pontuao so selecionadas.

\subsection{Encadeamento Lxico}
\label{AE_EL}
Este algoritmo pontua cada sentena com base em cadeias de termos que so formadas com o uso de um dicionrio de sinnimos. Cada termo de uma sentena
 encadeado a uma lista de palavras que possuem alguma relao entre si ou uma nova lista  iniciada a partir do termo. Existem trs tipos de relaes:
extra-forte, forte e mdio-forte \cite{Barzilay, BarzilayS}.

A relao extra-forte ocorre entre palavras repetidas, enquanto que a forte, entre sinonmias. J a relao mdio-forte existe entre palavras
com alguma sinonmia em comum. O encadeamento de termos deve respeitar certas restries baseadas na distncia entre palavras relacionadas que, por sua
vez, depende do tipo de relao entre elas, como indicado a seguir:

\begin{enumerate}
%\item a distncia entre palavras relacionadas depende do tipo de relao;
\item no existe limite para relaes extra-fortes;
\item relaes fortes so limitadas a uma distncia de sete sentenas; e
\item um mximo de trs sentenas de distncia limita as relaes mdios-fortes.
\end{enumerate}

Uma vez montadas as cadeias de lxicos se pode pontuar cada cadeia. A pontuao  dada por:

\begin{equation}
p(c) = |c| \times h
\label{EQ_CHAIN}
\end{equation}
Onde $|c|$  o comprimento da cadeia (nmero de lxicos) e $h$, a homogeneidade,  $1 - \frac{unique(l)}{|c|}$, o nmero de lxicos diferentes dividido pelo
comprimento da cadeia.

Com base nesta pontuao seleciona-se as cadeias fortes, que so aquelas que satisfazem o seguinte critrio:

\begin{equation}
p(c) > \bar{p} + 2 \times \delta_p
\label{EQ_CHAIN_FORTE}
\end{equation}
Com $\bar{p}$ sendo a mdia das pontuaes e $\delta_p$ o desvio padro.

O extrato  obtido selecionando-se sentenas de acordo com a seguinte heurstica: para cada cadeia forte seleciona-se a primeira sentena em que aparece a
palavra representativa da cadeia.

\section{Implementao e Avaliao}
\label{CA}
Para se chegar a uma ferramenta que preencha os requisitos desejados, ou seja, em {\bf Software Livre}, com suporte ao portugus, para uso na Web, de fcil
expanso e com baixo tempo de resposta, adotou-se a seguinte metodologia:

\begin{enumerate}
\item reutilizao e adaptao do cdigo OTS (verso 0.4.2);
\item criao de um dicionrio de regras para o portugus do Brasil;
\item realizao de testes de comparao.
\end{enumerate}

Os testes de comparao foram realizados entre as diferentes implementaes desenvolvidas a partir do cdigo base do OTS e, tambm, o GistSumm.

Nas prximas sees so apresentados e discutidos os algoritmos testados, os procedimentos de teste e os resultados obtidos.

\subsection{Algoritmos}
\label{CA_AL}
Foram implementados sumarizadores com combinaes dos algoritmos e mtodos expostos anteriormente com exceo dos algoritmos de rede neural, por no ter tido bons
resultados em \cite{Pardo3}, e encadeamento lxico, por necessitar de uma base de dados com sinnimos no disponvel publicamente em portugus.

\newpage

Os algoritmos implementados esto especificados na tabela abaixo:

\begin{table}[ht]
\centering
\begin{tabular}[t]{|r||c|c|c|}
\hline
Implementao&Tcnica&Raiz\\
\hline
\hline
Algoritmo 1&Contagem&Dicionrio Lxico\\
\hline
Algoritmo 2&Contagem&Dicionrio de Regras (sem verbos)\\
\hline
Algoritmo 3&Contagem&Dicionrio de Regras (com verbos)\\
\hline
Algoritmo 4&Contagem&N-Grama\\
\hline
Algoritmo 5&TF-ISF&Dicionrio Lxico\\
\hline
Algoritmo 6&TF-ISF&Dicionrio de Regras (sem verbos)\\
\hline
Algoritmo 7&TF-ISF&Dicionrio de Regras (com verbos)\\
\hline
Algoritmo 8&TF-ISF&N-Grama\\
\hline
\end{tabular}
\caption{Algoritmos Implementados}
\label{TAB_ALG}
\end{table}

Como j mencionado anteriormente foram utilizados dois {\it softwares} para a realizao dos testes. O primeiro deles, o GistSumm, corresponde ao \emph{Algoritmo 1} e
ao \emph{Algoritmo 5}. Para os outros algoritmos foi utilizado o OTS, que por ter uma licena do tipo GPL possibilitou a mudana do seu cdigo.

\subsubsection{Contagem com Dicionrio Lxico}
\label{CA_AL_1}
Para este cenrio de teste foi utilizado o programa GistSumm. O GistSumm implementa dois algoritmos de ranqueamento: o de contagem e o TF-ISF. Ele tambm utiliza um
dicionrio lxico. Para saber mais detalhes veja \cite{Pardo2}.

\subsubsection{Contagem com Dicionrio de Regras (sem verbos)}
\label{CA_AL_2}
Neste cenrio de teste foi utilizado o OTS com um dicionrio de regras para o portugus. A verso 0.4.2 do OTS implementa apenas um algoritmo de ranqueamento, o de
contagem de palavras-chave. Ele no possui oficialmente suporte ao portugus, porm um dicionrio portugus acompanha a distribuio. Esse dicionrio contm muitos erros,
tais como: palavras inglesas, regras de pontuao falhas, etc. Isso impossibilitou o seu uso e houve a necessidade de se desenvolver um dicionrio para o portugus totalmente
novo. Foram inseridas as seguintes regras nesse dicionrio:

\begin{list}{$\bullet$}{}
\item Regras de pontuao;
\item Pontuaes indicativas de final de sentena;
\item Excees s pontuaes indicativas de final de sentena;
\item Regras para buscar as raizes formadoras dos advrbios da lngua portuguesa terminados em \emph{mente};
\item Remoo dos pronomes oblquos tonos;
\item Remoo dos sufixos das conjugaes de verbos na forma pronominal;
\item Regras de gnero;
\item Regras de nmero;
\item Sinnimos de adjetivos comuns;
\item {\it Stopwords}: incluindo os verbos de ligao e auxiliares.
\end{list}

Este dicionrio ficou com um tamanho de 30KB.

\subsubsection{Contagem com Dicionrio de Regras (com verbos)}
\label{CA_AL_3}
Cenrio de teste utilizando o OTS com um dicionrio de regras para o portugus. A diferena desse dicionrio com aquele descrito acima  que esse possui um item
a mais:

\begin{list}{$\bullet$}{}
\item Regras para buscar o infinitivo de verbos.
\end{list}

Para esta regra foi utilizada a ferramenta ``conjugue'' \cite{brspell}, a partir da qual foi gerado um banco de conjugaes com cerca de 4100 verbos da lngua
portuguesa. Esse banco, j estruturado em um arquivo XML, foi inserido no dicionrio de regras do OTS. Este dicionrio ficou com um tamanho de 8MB.

Aqui, novamente, o trabalho foi facilitado graas a licena do tipo GPL do programa ``conjugue''.

\subsubsection{Contagem com N-Grama}
\label{CA_AL_4}
Aqui foi utilizado o OTS sem o dicionrio de regras. Na realidade, o XML que representa o dicionrio de regras foi utilizado apenas para apresentar as
\emph{stopwords}, que ainda existem neste cenrio. As raizes foram obtidas atravs de uma funo de n-grama.

\subsubsection{TF-ISF com Dicionrio Lxico}
\label{CA_AL_5}
Para este cenrio de teste foi novamente utilizado o programa GistSumm que possui a opo de utilizar TF-ISF para o ranqueamento das sentenas.

\subsubsection{TF-ISF com Dicionrio de Regras (sem verbos)}
\label{CA_AL_6}
O OTS vem com um algoritmo de ranqueamento que  o de ``contagem''. Para a realizao dos teste deste cenrio foi implementado uma nova funo de ranqueamento
para o OTS utilizando o algoritmo TF-ISF. Com essa nova funo e o mesmo dicionrio de regras utilizado no \emph{Algoritmo 2} se preparou este cenrio de teste.

\subsubsection{TF-ISF com Dicionrio de Regras (com verbos)}
\label{CA_AL_7}
Este cenrio de teste foi preparado como o OTS utilizado no \emph{Algoritmo 6}, mas com o mesmo dicionrio utilizado no \emph{Algoritmo 3}.

\subsubsection{TF-ISF com N-Grama}
\label{CA_AL_8}
Cenrio de teste utilizando o OTS com a funo de ranqueamento do tipo TF-ISF, usando a funo de n-grama e o dicionrio apenas para apresentar as
\emph{stopwords}.

\subsection{Preparao e Critrios}
\label{CA_PC}
A seguir  explicado como foram feitas a preparao e escolha de critrios para a comparao dos algoritmos (seguindo o modelo usado em \cite{Ji}).

Para realizar os testes de comparao entre os algoritmos expostos acima se utilizou um {\it corpus} com cem textos jornalsticos distribudos em cinco categorias
(vinte textos em cada) obtidos do projeto TeMrio \cite{Te}. As categorias so: poltica, mundo, internacional, opinio e especial. Cada uma dessas categorias
refletem o nome da seo em que aparecem no jornal correspondente, podendo ser da {\bf Folha de So Paulo} ou do {\bf Jornal do Brasil} (para mais detalhes veja
\cite{Pardo4}). Para cada texto h um resumo, texto reescrito de forma sinttica, gerado manualmente por um profissional lingista. Tambm foram produzidos extratos
manualmente, compostos por frases do texto original, para 20\% dos textos. Foram produzidos por graduandos do departamento de letras da Universidade de Braslia.
Os extratos automticos, aqueles gerados pelas ferramentas em teste, e os manuais, gerados pelos lingistas, foram produzidos com 50\% do tamanho dos textos originais.
Os textos originais possuem em mdia 609 palavras ou 29 sentenas.

Os extratos automticos foram comparados tanto com resumos quanto com extratos manuais. Os testes foram realizados com a utilizao de uma abordagem
automtica de avaliao. Foram desenvolvidos \emph{scripts} para que as estatsticas fossem produzidas pela execuo de cada algoritmo sobre o {\it corpus} e
comparao com o banco de resumos e extratos manuais. O critrio escolhido para pontuar o extratos automticos com relao aos resumos manuais foi a proporo
das palavras mais freqentes do resumo presentes no extrato. J para pontuar os extratos automticos com relao aos extratos manuais foi escolhida a proporo
de sentenas do extrato manual presentes no extrato automtico.

A seguir so explicados os critrios com maior detalhamento.

\subsubsection{Critrios com os Resumos}
\label{CA_CR}
Para avaliar o quanto os extratos automticos se aproximaram dos resumos manuais foi realizada a extrao das palavras mais freqentes de cada extrato e de cada
resumo. O critrio utilizado  o de pontuar de acordo com a proporo de palavras em comum. Passo a passo, tem-se:

\begin{enumerate}
\renewcommand{\labelenumi}{\arabic{enumi}$^{\underline{o}}$}
\item Para cada resumo se obteve uma lista de pares \texttt{\{palavra, freqncia\}};
\item Os pares cuja \texttt{palavra} estiver contida na lista de \emph{stopwords} so descartados (conforme \ref{AE_PC});
\item A lista  ordenada descendentemente pela \texttt{freqncia};
\item As $\alpha$ primeiras \texttt{palavras} so selecionadas para formarem a lista das palavras mais importantes do resumo;\footnote{Para os testes
$\alpha$ foi configurado como 20}
\item Os mesmos passos anteriores foram realizados com cada extrato automtico;
\item Para cada par de lista da palavras mais importantes (resumo e extrato) foi calculada a porcentagem de palavras em comum;
\item As estatsticas, ento, foram computadas.
\end{enumerate}

A lista de \emph{stopwords} utilizada contm palavras sem, ou com pouca, importncia na semntica da sentena. Tem-se, por exemplo:

\begin{list}{$\bullet$}{}
\item Alguns advrbios (principalmente de lugar e tempo);
\item Artigos;
\item Conjunes;
\item Interjeies;
\item Preposies;
\item Pronomes;
\item Verbos de ligao e auxiliares.
\end{list}

Esta lista foi elaborada considerando as palavras de classe fechada mais freqentes na lngua portuguesa. Como referncia foi utilizado o {\bf Dicionrio Houaiss
da Lngua Portuguesa} \cite{Dicionario} e a {\bf Gramtica da Lngua Portuguesa de Pasquale Cipro Neto} \cite{Gramatica}.

\subsubsection{Critrios com os Extratos}
\label{CA_CE}
J a avaliao dos extratos automticos em relao aos extratos manuais foi feita pela freqncia de sentenas em comuns. Os passos foram:

\begin{enumerate}
\renewcommand{\labelenumi}{\arabic{enumi}$^{\underline{o}}$}
\item Para cada par de extrato (manual e automtico) foi calculada a porcentagem de frases em comum;
\item As estatsticas, ento, foram computadas com base nos vinte percentuais obtidos.
\end{enumerate}

\subsection{Resultados}
\label{CA_RE}
Os resultados dos algoritmos especificados na {\bf \tablename~\ref{TAB_ALG}} esto expostos a seguir. Grficos da distribuio destes resultados esto contidos no
{\bf \appendixname~\ref{AP_A}}.

\subsubsection{Resultados dos Resumos}

\begin{table}[ht]
\centering
\begin{tabular}[t]{|l||r|r|r|r|r|r|r|r|}
\hline
~&\multicolumn{8}{c|}{Algoritmos}\\
\cline{2-9}
~&1&2&3&4&5&6&7&8\\
\hline
\hline
Mdia&26,45&26,55&26,45&30,50&24,00&23,7&23,45&23,95\\
\hline
Dsv. Padro&12,62&11,89&11,73&13,23&12,83&11,43&11,18&11,53\\
\hline
Melhor Caso&60&60&60&70&60&60&60&60\\
\hline
Pior Caso&0&0&0&0&0&5&5&5\\
\hline
Moda&25&30&30&30&20&20&20&20\\
\hline
\end{tabular}
\caption{Comparao com os Resumos Manuais (\%)}
\label{TAB_RES}
\end{table}

Esses resultados revelam um comportamento anmalo do esperado. Pode-se ver que o algoritmo que utiliza TF-ISF foi pior que o de contagem, alm de que o dicionrio
maior gerou um extrato pior. Note que a comparao dos extratos gerados automaticamente esto sendo feitos com resumos manuais. Mas ao elaborar um resumo, um lingista
pode usar de sinnimos ou palavras com significados mais amplos. Isso gera um problema com a avaliao automtica, j que um critrio mais preciso seria o de comparar as
idias centrais dos textos.

Os piores casos da {\bf \tablename~\ref{TAB_RES}} realmente indicam que o lingista usou de outras palavras para sintetizar o texto. Este problema se torna ainda mais bvio
quando um desses extratos automticos so analisados manualmente, revelando que pelo menos algumas das idias centrais esto presentes de forma coesa.

\subsubsection{Resultados dos Extratos}

Uma outra abordagem  o de se comparar os extratos gerados automaticamente com aqueles elaborados manualmente por um profissional lingista. Abaixo esto os resultados
desta comparao.

\begin{table}[ht]
\centering
\begin{tabular}[t]{|l||r|r|r|r|r|r|r|r|}
\hline
~&\multicolumn{8}{c|}{Algoritmos}\\
\cline{2-9}
~&1&2&3&4&5&6&7&8\\
\hline
\hline
Mdia&38,6&45,6&48,1&47,1&37,8&54,7&52,3&53,7\\
\hline
Desvio Padro&6,67&7,01&12,64&9,83&11,95&9,29&6,88&11,02\\
\hline
Melhor Caso&47&53&75&65&56&70&60&70\\
\hline
Pior Caso&30&35&33&35&20&41&41&37\\
\hline
Moda&45&35&35&55&45&40&55&60\\
\hline
\end{tabular}
\caption{Comparao com os Extratos Manuais (\%)}
\label{TAB_EXT}
\end{table}

Dentre os algoritmos de contagem, o dicionrio maior gerou um extrato melhor e o uso de n-grama tambm proporcionou uma melhora em relao ao dicionrio menor. Com o
algoritmo de ranqueamento TF-ISF houve uma melhora em relao ao de contagem. Entre esses o que obteve uma melhor mdia foi o com um dicionrio de regras pequeno. O
dicionrio de regras maior, neste caso, gerou uma mdia menor, mas o menor desvio. J o n-grama ficou com o maior desvio devido ao pior caso mais baixo.

\subsubsection{Tempo de Processamento}

Uma medida importante para o sumarizador  seu tempo de processamento, j que pginas da Web devem ser sumarizadas em tempo real. Essa informao se encontra
na tabela a seguir.

\begin{table}[ht]
\centering
\begin{tabular}[t]{|c|r|}
\hline
Algoritmo&Tempo\\
\hline
\hline
1&$11,5$\\
\hline
2&$50,0$\\
\hline
3&$0,03$\\
\hline
4&$89,5$\\
\hline
5&$12,0$\\
\hline
6&$62,5$\\
\hline
7&$0,03$\\
\hline
8&$100$\\
\hline
\end{tabular}
\caption{Velocidade dos Algoritmos}
\label{TAB_VEL}
\end{table}

Os nmeros da {\bf \tablename~\ref{TAB_VEL}} mostram em percentual a velocidade normalizada em relao ao algoritmo mais rpido.

\subsubsection{Anlise dos Resultados}

Desses resultados nota-se que dicionrios de regras muito grandes tornam o uso da ferramenta invivel. O uso de n-gramas pode ser uma alternativa a se considerar j
que seu tempo de processamento foi o menor e a qualidade dos extratos produzidos foi comparvel com o melhor algoritmo, que usa dicionrio de regras. Isso o torna uma
escolha ideal para a sumarizao de pginas Web, principalmente pelo fato de que ainda haver uma melhora quando se for consideradas as palavras-chave do perfil
do usurio.

Os extratos gerados manualmente foram uma forma melhor de realizar as comparaes com os extratos automticos. Os resultados obtidos pelos testes esto
resumidos na seguinte tabela contendo o ranqueamento dos algoritmos:

\begin{table}[ht]
\centering
\begin{tabular}[t]{|c|c|c|}
\hline
~&Resumos&Extratos\\
\hline
\hline
$1^{\underline{o}}$&Algoritmo 4&Algoritmo 6\\
\hline
$2^{\underline{o}}$&Algoritmo 2&Algoritmo 8\\
\hline
$3^{\underline{o}}$&Algoritmo 3&Algoritmo 7\\
\hline
$4^{\underline{o}}$&Algoritmo 1&Algoritmo 3\\
\hline
$5^{\underline{o}}$&Algoritmo 5&Algoritmo 4\\
\hline
$6^{\underline{o}}$&Algoritmo 8&Algoritmo 2\\
\hline
$6^{\underline{o}}$&Algoritmo 6&Algoritmo 1\\
\hline
$6^{\underline{o}}$&Algoritmo 7&Algoritmo 5\\
\hline
\end{tabular}
\caption{Ranqueamento dos Algoritmos}
\label{TAB_RAN}
\end{table}

Da {\bf \tablename~\ref{TAB_RAN}} pode-se ver que, como o esperado, o mtodo TF-ISF  melhor que o de contagem de palavras-chave. Quanto aos mtodos de obteno
de raiz, se conclui que mtodos envolvendo busca em banco de dados tornam-se mais lentos. Os dicionrios de regras dependem da quantidade de regras estabelecidas:
quanto mais regras, mais lento, porm melhores extratos so produzidos. J o uso de n-gramas  uma boa alternativa se um dicionrio no for disponvel. Esse
mtodo  mais rpido e gerou extratos com a mesma preciso ou melhor.

Levando-se em considerao a preciso e a velocidade dos algoritmos, pode-se construir o seguinte grfico:

A {\bf \figurename~\ref{GRA_RES}} mostra que o \emph{Algoritmo 8} e o \emph{Algoritmo 6} foram os melhores, sendo o \emph{Algoritmo 8} uma melhor escolha devido 
velocidade de processamento maior com uma pequena queda na preciso. A mdia obtida da {\bf \tablename~\ref{TAB_EXT}}, 47,24\%,  usada como linha de corte no
grfico. Quatro dos oito algoritmos ficaram acima dessa linha e esto identificados no grfico pela explcita numerao.

\section{Concluses}
\label{CO}
A abordagem automtica de testes permitiu que a coleta dos resultados de cada cenrio, uma vez que esses estivessem preparados, fosse feita
muito mais rpida sobre uma grande quantidade de textos. Um dos problemas encontrados foi a de se encontrar um bom critrio para essa avaliao, alm
de outros problemas intrnsecos  sumarizao \cite{Jing}, tais como:

\begin{list}{$\bullet$}{}
\item Como saber se o sumrio gerado manualmente  mesmo o ideal? Precisaramos coletar vrios sumrios humanos e analisar os pontos em comuns.
\item O tamanho do texto tambm influencia os resultados dos sumrios, tanto os gerados manualmente quanto os automticos.
\item Qual a melhor alternativa: comparar os extratos com resumos manuais ou extratos manuais?
\end{list}

Dentre as diversas tcnicas avaliadas, aquela utilizando funo de ranqueamento do tipo IF-ISF e um dicionrio de regras para o portugus do Brasil obteve os melhores
resultados. Um exemplo pode ser visto no {\bf \appendixname~\ref{AP_B}}. Porm uma abordagem de chaveamento entre algoritmos  necessrio para textos com poucas
sentenas.

\subsection{Trabalhos Futuros}
\label{CO_TF}
Os prximos avanos sero os listados a seguir:

\begin{list}{$\bullet$}{}
\item A utilizao de palavras-chave fornecidas ``manualmente''. Isso pode ser realizado atravs de perfis de usurio, onde o usurio do dispositivo cadastraria
seus interesses. Assim a sumarizao dar mais peso s sentenas que tratam dos assuntos mais procurados.
\item Avaliar um algoritmo de encadeamento lxico (portugus). Mas j se pode estimar que ele ser mais lento, mas produzir um extrato de maior qualidade
(veja \cite{Doran}). Para saber o quanto mais lento e o quanto melhor ser o extrato  necessrio a realizao de testes. Para tal ser necessrio um banco de
sinnimos da lngua portuguesa como o desenvolvido no projeto \emph{Diadorim} \cite{Greghi, NILC}. Mas infelizmente este banco no  de domnio pblico.
\item Realizar um estudo sobre o impacto na qualidade dos extratos em relao ao tamanho do texto original. Pode-se, por exemplo, chavear entre diferentes
algoritmos dependendo do tamanho do texto, obtendo-se melhores resultados com a escolha do algoritmo que mais se adqe ao texto.
\end{list}

\renewcommand{\sectionname}{\appendixname}
\renewcommand{\thesection}{\Alph{section}}
\setcounter{section}{0}
\section{Grficos de Distribuio}
\label{AP_A}
Aqui se encontram os grficos de distribuio das palavras e sentenas obtidos pela comparao dos extratos automticos com os resumos e extratos manuais,
respectivamente.

\subsection{Distribuio Obtida da Comparao com os Resumos Manuais}
\label{AP_A_R}

\newpage

\subsection{Distribuio Obtida da Comparao com os Extratos Manuais}
\label{AP_A_E}

\newpage

\section{Exemplo de Sumarizao}
\label{AP_B}
Texto original do Jornal do Brasil de 19 de abril de 1996: ``Massacre no Lbano''.
~\\

\framebox{
\parbox{12cm}{
\setlength{\parindent}{0.5cm}
{\sf
{\scriptsize
Apanhado na dinmica do olho por olho, dente por dente, Israel erra o alvo e mata 100 libaneses num campo de refugiados

BEIRUTE - O confronto entre Israel e a guerrilha fundamentalista do Hisbol (Partido de Deus) completou ontem oito dias de forma sangrenta. Bombardeios da artilharia israelense contra o Sul do Lbano provocaram dois massacres: o primeiro, em Nabati, matou 10 pessoas, entre elas um beb de trs dias. O segundo, horas depois, atingiu uma base das Naes Unidas transformada em acampamento em Can, nos arredores de Tiro, matando pelo menos 100 pessoas e ferindo mais de 190, quase todos civis, a maioria mulheres e crianas, que se haviam refugiado no local para escapar dos bombardeios israelenses. O bombardeio israelense aconteceu em resposta a um ataque com foguetes Katyusha, lanados pelo Hisbol de uma posio a 300 metros da base. A rota dos foguetes foi refeita por radares israelenses, e 15 minutos depois Israel bombardeou em resposta, errando o alvo.

O Hisbol negou que tivesse lanado foguetes de posies prximas  base da Fora Provisria das Naes Unidas no Lbano (Unifil, das iniciais em ingls), acusando Israel, num comunicado divulgado em Beirute, de "espalhar boatos falsos". Mas o ataque do Hisbol foi confirmado por um porta-voz das Naes Unidas.

O massacre deixou indignada a populao, arrasados at mesmo fotgrafos e cinegrafistas acostumados a registrar cenas semelhantes, e provocou imediata e vigorosa reao internacional. Parentes das vtimas gritavam ao lado dos corpos, culpando Israel mas tambm acusando o Hisbol, por ter atirado de local to prximo ao campo sabendo que Israel costuma rastrear os ataques.

O primeiro-ministro israelense, Shimon Peres, disse lamentar o bombardeio, mas responsabilizou o Hisbol pelo episdio. "O nico culpado  o Hisbol, e se os srios e os libaneses no impedirem ele vai provocar uma tragdia no Lbano", afirmou o primeiro-ministro, durante entrevista coletiva  imprensa, em Tel Aviv. Israel acusa o Lbano e a Sria de serem coniventes com os terroristas instalados em territrio libans, de onde atacam constantemente alvos civis no Estado judeu. Em entrevista  televiso francesa Antenne 2, o primeiro-ministro libans, Rafic Hariri, declarou-se "verdadeiramente comovido" pelas declaraes de Peres, e desafiou o premier israelense a mostrar "coragem", reconhecendo que o bombardeio foi "um erro".

Carnificina - Quinhentos civis libaneses se haviam refugiado no campo para fugir dos bombardeios israelenses ao Sul do Lbano. O reprter Brent Sadler, da rede de TV a cabo CNN, falou de "cenas terrveis de carnificina". Sadler, que esteve no local, contou que muitos fotgrafos e cinegrafistas baixaram as cmeras e comearam a chorar diante dos corpos mutilados de homens, mulheres e crianas. Os feridos, entre eles alguns soldados da ONU, foram levados para hospitais de Tiro.

}
}
}
}

\newpage

\framebox{
\parbox{12cm}{
\setlength{\parindent}{0.5cm}
{\sf
{\scriptsize
Antes do bombardeio contra Can, um ataque da aviao israelense contra Nabati, tambm no Sul do Lbano, destruiu uma casa, matando 10 pessoas, entre elas uma me e sete filhos. Uma das crianas era um beb, de apenas trs dias. O pai, em peregrinao a Meca, no chegou a conhecer o filho.

Apesar do choque provocado pela morte de tantos civis, Israel afirmou que pretende continuar os bombardeios. "Acredito que a operao v continuar, pelo menos por alguns dias, mas  impossvel fixar um prazo. Pode levar uma semana ou 10 dias", disse o ministro do Exterior, Ehud Barak, ex-comandante militar,  rdio do exrcito israelense.

Alvos - Um porta-voz do governo israelense, Uri Dromi, reiterou que Israel no tem outra escolha, pois a prioridade  interromper os ataques de Katyushas contra o pas. Dromi afirmou que as operaes parariam se foguetes parassem de cair. "Mas o Hisbol aumentou os ataques, em vez de cess-los", afirmou. Os israelenses acusam o Hisbol de se esconder atrs de civis. Questionado por um reprter da CNN sobre o ataque a Nabati, o chanceler Barak disse que Israel bombardeou a casa onde morreram vrios civis porque momentos antes avies israelenses tinham sido alvejados exatamente daquele local.
    
Quando o reprter perguntou a Barak sobre a promessa de no atacar o Hisbol se houvesse perigo de matar civis, Barak respondeu que o piloto que bombardeou a casa no podia saber que havia civis l. Shimon Peres, que se reuniu com o presidente palestino Yasser Arafat ontem, reagiu ao ataque de Nabati (o outro no havia ocorrido ainda) dizendo que pensava que a cidade estava vazia, que todos foram instrudos a deixar suas casas. Mas os libaneses responderam a isso dizendo que no tinham para onde ir com seus filhos e perguntaram que direito Peres teria de mand-los sair de suas casas.

O primeiro-ministro israelense disse que est disposto a aceitar o cessar-fogo proposto pelos EUA se o Hisbol se comprometer a parar de atirar contra o Norte de Israel. Em entrevista  CNN, de Damasco, na Sria, o primeiro-ministro libans, Rafic Hariri, acusou Israel de obstruir as negociaes. "No  o Lbano que est recusando uma soluo poltica,  Peres", disse Hariri. "Veja o que est acontecendo. Ele est matando inocentes e deixando o Hisbol intacto", afirmou.

Os ataques de Israel foram iniciados h nove dias, depois que foguetes Katyusha lanados pelo Hisbol feriram 36 civis na cidade israelense de Kiriat Shmona. Desde ento, Israel vem bombardeando sistematicamente o Sul do Lbano, sem ter conseguido impingir grandes danos ao grupo terrorista - as baixas so praticamente todas civis.

}
}
}
}
~\\

\newpage

O extrato manualmente obtido foi o seguinte:
~\\

\framebox{
\parbox{12cm}{
\setlength{\parindent}{0.5cm}
{\sf
{\scriptsize
BEIRUTE - O confronto entre Israel e a guerrilha fundamentalista do Hisbol (Partido de Deus) completou ontem oito dias de forma sangrenta. Bombardeios da artilharia israelense contra o Sul do Lbano provocaram dois massacres: o primeiro, em Nabati, matou 10 pessoas, entre elas um beb de trs dias. O segundo, horas depois, atingiu uma base das Naes Unidas transformada em acampamento em Can, nos arredores de Tiro, matando pelo menos 100 pessoas e ferindo mais de 190, quase todos civis, a maioria mulheres e crianas, que se haviam refugiado no local para escapar dos bombardeios israelenses. O bombardeio israelense aconteceu em resposta a um ataque com foguetes Katyusha, lanados pelo Hisbol de uma posio a 300 metros da base. A rota dos foguetes foi refeita por radares israelenses, e 15 minutos depois Israel bombardeou em resposta, errando o alvo.

O Hisbol negou que tivesse lanado foguetes de posies prximas  base da Fora Provisria das Naes Unidas no Lbano (Unifil, das iniciais em ingls), acusando Israel, num comunicado divulgado em Beirute, de "espalhar boatos falsos". Mas o ataque do Hisbol foi confirmado por um porta-voz das Naes Unidas.

O massacre deixou indignada a populao, arrasados at mesmo fotgrafos e cinegrafistas acostumados a registrar cenas semelhantes, e provocou imediata e vigorosa reao internacional. Parentes das vtimas gritavam ao lado dos corpos, culpando Israel mas tambm acusando o Hisbol, por ter atirado de local to prximo ao campo sabendo que Israel costuma rastrear os ataques.

O primeiro-ministro israelense, Shimon Peres, disse lamentar o bombardeio, mas responsabilizou o Hisbol pelo episdio. Israel acusa o Lbano e a Sria de serem coniventes com os terroristas instalados em territrio libans, de onde atacam constantemente alvos civis no Estado judeu.

O reprter Brent Sadler, da rede de TV a cabo CNN, falou de "cenas terrveis de carnificina". Sadler, que esteve no local, contou que muitos fotgrafos e cinegrafistas baixaram as cmeras e comearam a chorar diante dos corpos mutilados de homens, mulheres e crianas. Os feridos, entre eles alguns soldados da ONU, foram levados para hospitais de Tiro.

Antes do bombardeio contra Can, um ataque da aviao israelense contra Nabati, tambm no Sul do Lbano, destruiu uma casa, matando 10 pessoas, entre elas uma me e sete filhos.

Apesar do choque provocado pela morte de tantos civis, Israel afirmou que pretende continuar os bombardeios. 

Alvos - Um porta-voz do governo israelense, Uri Dromi, reiterou que Israel no tem outra escolha, pois a prioridade  interromper os ataques de Katyushas contra o pas. Dromi afirmou que as operaes parariam se foguetes parassem de cair. "Mas o Hisbol aumentou os ataques, em vez de cess-los", afirmou. Os israelenses acusam o Hisbol de se esconder atrs de civis. Questionado por um reprter da CNN sobre o ataque a Nabati, o chanceler Barak disse que Israel bombardeou a casa onde morreram vrios civis porque momentos antes avies israelenses tinham sido alvejados exatamente daquele local.

Shimon Peres, que se reuniu com o presidente palestino Yasser Arafat ontem, reagiu ao ataque de Nabati (o outro no havia ocorrido ainda) dizendo que pensava que a cidade estava vazia, que todos foram instrudos a deixar suas casas. Mas os libaneses responderam a isso dizendo que no tinham para onde ir com seus filhos e perguntaram que direito Peres teria de mand-los sair de suas casas.

O primeiro-ministro israelense disse que est disposto a aceitar o cessar-fogo proposto pelos EUA se o Hisbol se comprometer a parar de atirar contra o Norte de Israel. Em entrevista  CNN, de Damasco, na Sria, o primeiro-ministro libans, Rafic Hariri, acusou Israel de obstruir as negociaes. "No  o Lbano que est recusando uma soluo poltica,  Peres", disse Hariri.

Os ataques de Israel foram iniciados h nove dias, depois que foguetes Katyusha lanados pelo Hisbol feriram 36 civis na cidade israelense de Kiriat Shmona.

}
}
}
}
~\\

\newpage

O extrato automtico obtido do \emph{Algoritmo 4} se segue:
~\\

\framebox{
\parbox{12cm}{
\setlength{\parindent}{0.5cm}
{\sf
{\scriptsize
BEIRUTE - O confronto entre Israel e a guerrilha fundamentalista do Hisbol (Partido de Deus) completou ontem oito dias de forma sangrenta. Bombardeios da artilharia israelense contra o Sul do Lbano provocaram dois massacres: o primeiro, em Nabati, matou 10 pessoas, entre elas um beb de trs dias. O segundo, horas depois, atingiu uma base das Naes Unidas transformada em acampamento em Can, nos arredores de Tiro, matando pelo menos 100 pessoas e ferindo mais de 190, quase todos civis, a maioria mulheres e crianas, que se haviam refugiado no local para escapar dos bombardeios israelenses. O bombardeio israelense aconteceu em resposta a um ataque com foguetes Katyusha, lanados pelo Hisbol de uma posio a 300 metros da base. A rota dos foguetes foi refeita por radares israelenses, e 15 minutos depois Israel bombardeou em resposta, errando o alvo.

O Hisbol negou que tivesse lanado foguetes de posies prximas  base da Fora Provisria das Naes Unidas no Lbano (Unifil, das iniciais em ingls), acusando Israel, num comunicado divulgado em Beirute, de "espalhar boatos falsos". Mas o ataque do Hisbol foi confirmado por um porta-voz das Naes Unidas.

Parentes das vtimas gritavam ao lado dos corpos, culpando Israel mas tambm acusando o Hisbol, por ter atirado de local to prximo ao campo sabendo que Israel costuma rastrear os ataques.

Carnificina - Quinhentos civis libaneses se haviam refugiado no campo para fugir dos bombardeios israelenses ao Sul do Lbano.

Antes do bombardeio contra Can, um ataque da aviao israelense contra Nabati, tambm no Sul do Lbano, destruiu uma casa, matando 10 pessoas, entre elas uma me e sete filhos.

Apesar do choque provocado pela morte de tantos civis, Israel afirmou que pretende continuar os bombardeios. Pode levar uma semana ou 10 dias", disse o ministro do Exterior, Ehud Barak, ex-comandante militar,  rdio do exrcito israelense.

Alvos - Um porta-voz do governo israelense, Uri Dromi, reiterou que Israel no tem outra escolha, pois a prioridade  interromper os ataques de Katyushas contra o pas. Questionado por um reprter da CNN sobre o ataque a Nabati, o chanceler Barak disse que Israel bombardeou a casa onde morreram vrios civis porque momentos antes avies israelenses tinham sido alvejados exatamente daquele local.

Quando o reprter perguntou a Barak sobre a promessa de no atacar o Hisbol se houvesse perigo de matar civis, Barak respondeu que o piloto que bombardeou a casa no podia saber que havia civis l.

Os ataques de Israel foram iniciados h nove dias, depois que foguetes Katyusha lanados pelo Hisbol feriram 36 civis na cidade israelense de Kiriat Shmona. Desde ento, Israel vem bombardeando sistematicamente o Sul do Lbano, sem ter conseguido impingir grandes danos ao grupo terrorista - as baixas so praticamente todas civis.

}
}
}
}
~\\

O pequeno erro de coeso em ``Parentes das vtimas...'' no impede o entendimento do texto. Nesse teste foi obtido 65\% de acerto das sentenas.

\newpage

O extrato automtico obtido do \emph{Algoritmo 6} se segue:
~\\

\framebox{
\parbox{12cm}{
\setlength{\parindent}{0.5cm}
{\sf
{\scriptsize
BEIRUTE - O confronto entre Israel e a guerrilha fundamentalista do Hisbol (Partido de Deus) completou ontem oito dias de forma sangrenta. O segundo, horas depois, atingiu uma base das Naes Unidas transformada em acampamento em Can, nos arredores de Tiro, matando pelo menos 100 pessoas e ferindo mais de 190, quase todos civis, a maioria mulheres e crianas, que se haviam refugiado no local para escapar dos bombardeios israelenses.

O massacre deixou indignada a populao, arrasados at mesmo fotgrafos e cinegrafistas acostumados a registrar cenas semelhantes, e provocou imediata e vigorosa reao internacional. Parentes das vtimas gritavam ao lado dos corpos, culpando Israel mas tambm acusando o Hisbol, por ter atirado de local to prximo ao campo sabendo que Israel costuma rastrear os ataques.

O reprter Brent Sadler, da rede de TV a cabo CNN, falou de "cenas terrveis de carnificina". Sadler, que esteve no local, contou que muitos fotgrafos e cinegrafistas baixaram as cmeras e comearam a chorar diante dos corpos mutilados de homens, mulheres e crianas. Os feridos, entre eles alguns soldados da ONU, foram levados para hospitais de Tiro.

Uma das crianas era um beb, de apenas trs dias. O pai, em peregrinao a Meca, no chegou a conhecer o filho.

"Acredito que a operao v continuar, pelo menos por alguns dias, mas  impossvel fixar um prazo".

Dromi afirmou que as operaes parariam se foguetes parassem de cair.

Quando o reprter perguntou a Barak sobre a promessa de no atacar o Hisbol se houvesse perigo de matar civis, Barak respondeu que o piloto que bombardeou a casa no podia saber que havia civis l. Shimon Peres, que se reuniu com o presidente palestino Yasser Arafat ontem, reagiu ao ataque de Nabati (o outro no havia ocorrido ainda) dizendo que pensava que a cidade estava vazia, que todos foram instrudos a deixar suas casas. Mas os libaneses responderam a isso dizendo que no tinham para onde ir com seus filhos e perguntaram que direito Peres teria de mand-los sair de suas casas.

O primeiro-ministro israelense disse que est disposto a aceitar o cessar-fogo proposto pelos EUA se o Hisbol se comprometer a parar de atirar contra o Norte de Israel. Em entrevista  CNN, de Damasco, na Sria, o primeiro-ministro libans, Rafic Hariri, acusou Israel de obstruir as negociaes. "No  o Lbano que est recusando uma soluo poltica,  Peres", disse Hariri. "Veja o que est acontecendo. Ele est matando inocentes e deixando o Hisbol intacto", afirmou.

Os ataques de Israel foram iniciados h nove dias, depois que foguetes Katyusha lanados pelo Hisbol feriram 36 civis na cidade israelense de Kiriat Shmona. Desde ento, Israel vem bombardeando sistematicamente o Sul do Lbano, sem ter conseguido impingir grandes danos ao grupo terrorista - as baixas so praticamente todas civis.
}
}
}
}
~\\

Apesar de um erro de coeso ao referenciar Dromi e Barak, tivemos um percentual de acerto de 70\%.

\newpage

\bibliographystyle{plain}
\nocite{*}
\bibliography{suma}

\end{document}

